가설 검정
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
가설 검정은 통계학에서 특정 주장을 모수를 이용하여 나타낸 통계적 가설을 검증하는 방법이다. 유의 수준 설정, 귀무 가설과 대립 가설 설정, 표집 및 검정통계량 설정, 기각역 설정, 검정통계량 계산 및 영가설 확인, 통계적 의사결정의 5단계 절차를 거친다. 귀무 가설과 대립 가설을 설정하고, 유의 수준과 p-값을 통해 귀무 가설 기각 여부를 판단한다. 가설 검정은 20세기 초 로널드 피셔, 제르지 네이먼, 에곤 피어슨 등에 의해 발전되었으며, 피셔와 네이먼/피어슨 방식의 혼합으로 현대 가설 검정 방법이 정립되었다. 가설 검정의 종류에는 빈도주의 통계적 추론과 베이즈 추론이 있으며, 모수적 검정과 비모수적 검정으로 나뉜다. 검정력은 귀무 가설이 거짓일 때 귀무 가설을 기각할 확률을 나타내며, 제1종 오류와 제2종 오류를 최소화하는 것이 중요하다. 순차적 가설 검정은 표본 크기를 고정하지 않고 중단 규칙을 통해 검정을 수행하며, 가설 검정에 대한 비판과 대안으로 베이즈 추론 등이 제시되고 있다.
더 읽어볼만한 페이지
- 가설 검정 - 귀무 가설
귀무 가설은 통계적 유의성 검정에서 검정되는 '영향 없음' 또는 '차이 없음'에 대한 명제로, 대립 가설과 반대되며, 증거를 통해 기각 여부를 판단하고 과학적 주장을 통계적 잡음과 구분하는 데 사용된다. - 가설 검정 - 유의 확률
유의 확률은 통계적 가설 검정에서 귀무 가설이 참일 때 관측된 결과의 극단성을 나타내는 확률값으로, 귀무 가설 기각 여부를 판단하는 기준이 되지만 오용될 수 있어 다른 통계적 추론 방법이 대안으로 제시된다. - 실험 설계 - 무작위 대조 시험
- 실험 설계 - 실험군과 대조군
실험군과 대조군은 임상 연구에서 새로운 방법이나 약물의 효과를 평가하기 위해 사용되는 두 그룹으로, 대조군은 비교 기준이 되며, 실험군은 새로운 치료법을 받는 그룹이다.
가설 검정 | |
---|---|
개요 | |
학문 분야 | 통계학 |
종류 | 통계적 유의성 검정 |
목적 | 귀무 가설에 대한 증거 평가 연구 가설에 대한 지지 여부 결정 |
관련 개념 | 귀무 가설 대립 가설 유의 수준 p-값 검정력 1종 오류 2종 오류 |
상세 내용 | |
정의 | 모집단에 대한 가설의 진위 여부를 표본 데이터를 사용하여 통계적으로 검증하는 방법론 |
과정 | 값 계산 값과 유의 수준 비교) |
귀무 가설 | 기각될 가능성이 있는 가설 일반적으로 "차이가 없다" 또는 "효과가 없다"라는 형태로 설정 |
대립 가설 | 귀무 가설이 기각될 때 채택되는 가설 일반적으로 "차이가 있다" 또는 "효과가 있다"라는 형태로 설정 |
유의 수준 (α) | 귀무 가설이 실제로 참일 때, 귀무 가설을 기각할 확률 (1종 오류를 범할 확률) 일반적으로 0.05 또는 0.01 사용 |
p-값 | 귀무 가설이 참이라고 가정했을 때, 관측된 표본 데이터 또는 그보다 더 극단적인 데이터를 얻을 확률 p-값이 유의 수준보다 작으면 귀무 가설을 기각 |
검정 통계량 | 표본 데이터를 사용하여 계산되는 값 가설 검정에 사용되는 통계량의 종류는 검정 유형에 따라 다름 (예: t-통계량, z-통계량, F-통계량, 카이제곱 통계량) |
검정력 (1-β) | 귀무 가설이 거짓일 때, 귀무 가설을 올바르게 기각할 확률 2종 오류 (β) = 귀무 가설이 거짓일 때, 귀무 가설을 기각하지 못할 확률 |
검정 방법 | |
모수적 검정 | 모집단의 분포에 대한 가정을 필요로 하는 검정 방법 (예: 정규성 가정) 종류: t-검정 분산 분석 (ANOVA) 선형 회귀 분석 |
비모수적 검정 | 모집단의 분포에 대한 가정을 필요로 하지 않는 검정 방법 종류: 윌콕슨 순위 합 검정 만-휘트니 U 검정 크루스칼-왈리스 검정 카이제곱 검정 스피어만 순위 상관 계수 |
오류 | |
1종 오류 (α) | 귀무 가설이 실제로 참인데, 귀무 가설을 기각하는 오류 (거짓 긍정) |
2종 오류 (β) | 귀무 가설이 실제로 거짓인데, 귀무 가설을 기각하지 못하는 오류 (거짓 부정) |
주의사항 | |
유의성 vs. 중요성 | 통계적으로 유의미한 결과가 항상 실질적으로 중요한 결과를 의미하는 것은 아님. 효과 크기 및 표본 크기를 고려해야 함. |
다중 검정 문제 | 여러 번의 가설 검정을 수행할 경우, 1종 오류를 범할 확률이 증가함. 이에 대한 보정 방법 (예: 본페로니 보정)을 적용해야 함. |
관련 통계량 | |
검정 통계량 종류 | t-통계량, z-통계량, F-통계량, 카이제곱 통계량 등 (검정 유형에 따라 다름) |
효과 크기 | 코헨의 d, 피어슨 상관 계수 등 (효과의 크기를 나타내는 지표) |
2. 통계적 가설 및 절차
모수를 이용해 특정 주장을 나타내는 통계적 가설은 귀무가설(Null hypothesis, H₀, 영가설)과 이와 반대되는 대립가설(Alternative hypothesis, H₁)로 표현된다.[100]
가설검정은 다음과 같은 절차를 거친다.[101]
# 유의수준 결정, 귀무가설(H₀)과 대립가설(H₁) 설정
# 표집(sampling) 및 검정통계량 설정
# 기각역 설정
# 검정통계량 계산 및 영가설 확인
# 통계적 의사결정
현대적 유의성 검정은 칼 피어슨의 ''p''-값, 피어슨의 카이 제곱 검정, 윌리엄 실리 고셋의 스튜던트 t-분포, 로널드 피셔의 귀무 가설, 분산 분석, 유의성 검정등을 포함하며, 제르지 네이먼과 에곤 피어슨에 의해 가설 검정이 개발되었다.
피셔는 가우스 분포를 가정하여 소규모 표본에서 결과를 도출하기 위한 실험 설계와 방법을 강조했다. 반면 네이먼과 피어슨은 수학적 엄격성과 더 많은 표본, 더 광범위한 분포에서 결과를 얻기 위한 방법을 강조했다. 현대 가설 검정은 20세기 초에 개발된 피셔 대 네이먼/피어슨의 공식, 방법 및 용어를 혼합하여 사용한다.
피셔는 "유의성 검정"을 대중화했다. 그는 귀무 가설과 표본을 요구했고, 계산을 통해 귀무 가설 기각 여부를 결정했다. 유의성 검정은 대립 가설을 사용하지 않았기 때문에 제2종 오류 개념이 없었다. ''p''-값은 연구자가 귀무 가설에 대한 믿음을 강화할지 결정하는 데 도움을 주는 비공식적이지만 객관적인 지표로 고안되었다.[9] 가설 검정 (및 제1종/제2종 오류)은 피셔의 ''p''-값에 대한 보다 객관적인 대안으로 네이먼과 피어슨에 의해 고안되었다.[10][11]
피셔와 네이먼/피어슨은 격렬하게 충돌했다. 네이먼/피어슨은 그들의 공식을 유의성 검정의 개선된 일반화로 간주했지만,[10] 피셔는 그것이 과학 연구에 적용될 수 없다고 생각했다.[12] 두 학파 사이의 논쟁은 철학적 근거에서 벌어졌으며,[13] 1962년 피셔가 사망할 때까지 27년간 해결되지 않았다.
1940년경,[16] 통계 교과서 저자들은 검정 통계량 대신 ''p''-값을 사용하여 두 접근 방식을 결합하기 시작했다.
# | 피셔의 귀무 가설 검정 | 네이먼-피어슨 의사결정 이론 |
---|---|---|
1 | 통계적 귀무 가설을 설정. 귀무 가설은 무 가설(예: 0 차이)일 필요는 없음. | 두 개의 통계적 가설(H1, H2)을 설정하고, 주관적인 비용-편익 고려 사항을 기반으로 실험 전에 α, β 및 표본 크기를 결정. 이것들은 각 가설에 대한 기각 영역을 정의. |
2 | 정확한 유의 수준을 보고(예: p = 0.051 또는 p = 0.049). 가설을 "수용"하거나 "기각"하는 것에 대해 언급하지 않음. 결과가 "유의하지 않은" 경우, 어떠한 결론도 내리지 말고 결정을 내리지 않음. 추가 데이터를 사용할 수 있을 때까지 판단을 보류. | 데이터가 H1의 기각 영역에 속하면 H2를 수용. 그렇지 않으면 H1을 수용. 가설을 수용하는 것은 그 가설을 믿는다는 의미가 아니라, 가설이 사실인 것처럼 행동한다는 의미. |
3 | 이 절차는 현재 문제에 대해 알려진 바가 거의 없을 경우, 실험 상황을 이해하려는 시도의 맥락에서 잠정적인 결론을 도출하기 위해서만 사용. | 이 절차의 유용성은 가설의 분리(예: μ1 = 8 또는 μ2 = 10)가 있고, 알파와 베타를 선택하기 위해 의미 있는 비용-편익 거래를 할 수 있는 상황으로 제한. |
통계적 가설 검정에서는 가설이 옳다고 가정한 다음, 이에 따르는 모집단에서 실제로 관찰된 표본이 추출될 확률을 구하고, 그 값에 따라 판단한다. 그 확률이 충분히 작으면, 그 가설을 기각한다.
2. 1. 귀무 가설과 대립 가설
모수를 이용해 특정 주장을 나타내는 통계적 가설은 귀무 가설(Null hypothesis, H₀, 영가설)과 이와 반대되는 대립 가설(Alternative hypothesis, H₁)로 표현된다.[100] 통계적 가설은 귀무 가설과 대립 가설로 나뉜다.예를 들어, 미국 성인 여성 신장의 평균()이 180cm라는 가설을 검정할 때 귀무 가설은 다음과 같이 표기한다.
- H₀ :
이에 반대되는 대립 가설은 다음과 같은 형태가 가능하다.
- 제1형 : H₁ :
- 제2형 : H₁ :
- 제3형 : H₁ :
여기서 제1형은 양측 검정(two-sided test, two tailed test영어), 제2형과 제3형은 단측 검정(one-sided test영어)이라고 한다. 단측 검정에서 제2형은 좌측 검정(lower tailed test), 제3형은 우측 검정(upper tailed test)이라고 부른다.
양측 검정은 가설 검정에서 기각 영역(rejection region)이 양쪽에 있어 유의 수준 가 양극단으로 나뉘어 한쪽 면적이 가 된다. 기각 영역이 한쪽에만 있는 경우는 단측 검정이라고 한다.[102]
귀무 가설이 이론에 의해 예측되는 경우, 더 정밀한 실험은 근본적인 이론에 대한 더 엄격한 검증이 된다. 귀무 가설이 "차이 없음" 또는 "영향 없음"으로 기본 설정되는 경우, 더 정밀한 실험은 실험 수행을 동기 부여한 이론에 대한 덜 엄격한 검증이 된다.[4]
가설이 옳다고 가정했을 때 해당 표본이 관찰될 확률을 산출할 수 있도록 가설을 통계학적으로 표현한다. 검정은 아래의 두 가지 중 하나를 선택하며, 귀무 가설[96]을 기각할 수 있는지 여부를 조사한다.
; 귀무 가설
: 가치가 없다[97], 아무런 관련이 없다, 차이가 보이지 않는다, 가설 자체가 없었다 등을 의미한다. 일반적으로 H₀로 표기한다.
; 대립 가설
: 귀무 가설과 대립되므로 대립 가설이라고 불린다. 귀무 가설이 기각될 때 채택된다. 일반적으로 H₁로 표기한다. 귀무 가설의 타당성을 구하는 방식으로 검정을 진행하지만, 실제로 알고 싶은 것은 이쪽이다.
예를 들어, 플라세보에 대한 약물 시험 ( "약물의 효과를 유의미하게 주장할 수 있는가"를 조사)을 예로 들면,
- 귀무가설은 "약물의 효과를 주장할 수 없다"에 해당하며, 다음과 같이 가설을 세운다.
- *"약물에 대한 반응의 평균이 플라세보에 대한 반응과 같다."[98]
- 대립가설은 "약물의 효과를 주장할 수 있다"에 해당하며, 다음 가설에 해당한다.
- *"약물에 대한 반응의 평균이 플라세보에 대한 반응과 다르다."
2. 2. 유의 수준과 p-값
검정 통계량의 값이 귀무 가설 하에서 극단적인 값(분포 함수의 꼬리 부분)을 가질 확률을 나타내는 '''p-값'''은, 귀무 가설이 참이라는 가정 하에 실제로 관측된 결과 또는 그보다 더 극단적인 결과가 나올 확률이다. 유의 수준 (α)은 귀무 가설이 참인데도 불구하고 귀무 가설을 기각할 확률의 최대 허용 한계, 즉 제1종 오류를 범할 확률의 최대 허용치이다.[37] p-value|p-값|영어이 유의 수준 α보다 작으면 귀무 가설을 기각하고, 그렇지 않으면 기각하지 않는다.일반적으로 α = 0.05 (5%) 또는 α = 0.01 (1%)을 사용한다.
3. 가설 검정의 역사와 철학
폴 밀은 귀무 가설 선택의 인식론적 중요성이 제대로 인식되지 않았다고 주장했다. 그는 귀무 가설이 이론에 의해 예측되는 경우, 더 정밀한 실험은 근본적인 이론에 대한 더 엄격한 검증이 될 것이지만, 귀무 가설이 "차이 없음" 또는 "영향 없음"으로 기본 설정되는 경우에는 더 정밀한 실험이 실험 수행을 통해 얻고자 했던 이론에 대한 덜 엄격한 검증이 된다고 하였다.[4]
가설 검정과 철학은 밀접하게 관련되어 있다. 가설 검정을 포함하는 추론 통계학은 확률을 적용한 것이며, 확률과 그 적용은 모두 철학과 관련이 깊다. 철학자 데이비드 흄은 "모든 지식은 확률로 퇴화한다"라고 말했다. 확률에 대한 상반된 실용적 정의는 철학적 차이를 반영한다. 가설 검정은 실험 데이터의 과학적 해석에 주로 적용되며, 이는 과학 철학에서 연구된다.
피셔와 네이먼은 확률의 주관성에 반대했다. 그들의 견해는 객관적 정의에 기여했으며, 이들 사이의 역사적 불일치는 철학적인 부분에서 기인했다.
가설 검정에 대한 많은 철학적 비판은 통계학자들이 다른 맥락, 특히 상관관계는 인과관계를 의미하지 않는다와 실험 설계에서 논의한다. 가설 검정은 철학자들에게 지속적인 관심사이다.
네이만-피어슨 가설 검정(또는 귀무 가설 통계적 유의성 검정)은 방사능 수트케이스 예시를 통해 설명할 수 있다. "수트케이스"가 실제로 방사성 물질 운반을 위한 차폐 용기라면, 방사성 물질 없음, 하나 있음, 두 개(모두) 있음의 세 가지 가설 중에서 선택하는 검정이 필요하다. 각 경우에 필요한 조치가 포함된 안전을 위해 검사가 필요할 수 있다. 네이만-피어슨 보조정리는 가설 선택을 위한 좋은 기준은 확률의 비율(우도비)이라고 말한다. 관찰된 가이거 계수에 대해 가장 높은 확률을 가진 가설을 선택하는 것이 간단한 해결 방법이며, 전형적인 결과는 직관과 일치한다. 즉, 적은 계수는 소스가 없음을, 많은 계수는 두 개의 소스를, 중간 계수는 하나의 소스를 의미한다. 또한 부정을 증명하는 데 문제가 있으며, 귀무 가설은 최소한 반증 가능해야 한다.
네이만-피어슨 이론은 사전 확률과 결정으로 인한 행동의 비용을 모두 수용할 수 있다.[57] 전자는 각 검사가 이전 검사 결과를 고려할 수 있도록 하고(피셔의 유의성 검정과 달리), 후자는 확률뿐만 아니라 경제적 문제 등을 고려할 수 있도록 한다. 우도비는 가설 중에서 선택하기 위한 좋은 기준이 된다.
가설 검정의 두 가지 형태는 서로 다른 문제 공식에 기반한다. 원래 검정은 참/거짓 질문과 유사하며, 네이만-피어슨 검정은 객관식과 더 유사하다. 터키[68]는 전자는 강한 증거만을 기반으로 결론을 내는 반면, 후자는 사용 가능한 증거를 기반으로 결정을 내린다고 하였다. 두 검정은 수학적 및 철학적으로 매우 다르게 보이지만, 이후의 발전은 정반대의 주장을 낳는다. 예를 들어, 많은 작은 방사성 소스를 고려할 때, 가설은 0, 1, 2, 3... 입자의 방사성 모래가 된다. 방사선이 없거나 약간 있는 것(피셔)과 방사성 모래 0개 대 모든 대안(네이만-피어슨) 사이에는 거의 구별이 없다. 1933년의 주요 네이만-피어슨 논문[10]은 복합 가설(분포가 알 수 없는 매개변수를 포함하는 가설)도 고려했으며, (스튜던트의) ''t''-검정의 최적성을 증명했다. "고려중인 가설에 대한 더 나은 검정은 있을 수 없다"(321쪽). 네이만-피어슨 이론은 시작부터 피셔식 방법의 최적성을 증명하고 있었다.
피셔의 유의성 검정은 수학적 성장 가능성이 거의 없는 응용 분야에서 인기 있고 유연한 통계 도구임이 입증되었다. 네이만-피어슨 가설 검정은 수학 통계의 기둥으로 주장되며,[58] 이 분야에 대한 새로운 패러다임을 창출했다. 또한 통계적 공정 관리, 탐지 이론, 의사 결정 이론 및 게임 이론에서 새로운 응용 분야를 자극했다. 두 공식 모두 성공했지만, 그 성공은 다른 성격을 띠고 있다.
두 공식에 대한 분쟁은 해결되지 않았다. 과학은 주로 소개 통계에서 가르치는 피셔의 (약간 수정된) 공식을 사용한다. 통계학자들은 대학원에서 네이만-피어슨 이론을 공부한다. 수학자들은 공식을 통합한 것에 자부심을 느낀다. 철학자들은 그것들을 별도로 고려한다. 학식 있는 의견들은 그 공식들을 경쟁적(피셔 대 네이먼), 양립할 수 없음[8] 또는 보완적[59]으로 다양하게 간주한다. 베이즈주의 추론이 존경을 받으면서 분쟁은 더욱 복잡해졌다.
용어는 일관성이 없다. 가설 검정은 시간이 지남에 따라 모두 변경된 두 가지 공식의 혼합을 의미할 수 있다. 유의성 검정 대 가설 검정에 대한 모든 논의는 혼란에 이중으로 취약하다.
피셔는 가설 검정이 산업 품질 관리를 수행하는 유용한 전략이라고 생각했지만, 과학자들에게 가설 검정이 유용할 수 있다는 점에는 강하게 동의하지 않았다.[9] 가설 검정은 유의성 검정에 사용되는 검정 통계를 찾는 수단을 제공한다.[59] 검정력의 개념은 유의 수준을 조정하는 결과를 설명하는 데 유용하며 표본 크기 결정에 널리 사용된다. 두 방법은 철학적으로 여전히 구별된다.[13] 그들은 일반적으로 (그러나 ''항상''은 아님) 동일한 수학적 답을 생성하며, 선호되는 답은 상황에 따라 다르다.[59] 피셔와 네이만-피어슨 이론의 기존 병합은 격렬한 비판을 받았지만, 베이지안 목표를 달성하기 위해 병합을 수정하는 것이 고려되었다.[60]
# | 피셔의 귀무 가설 검정 | 네이먼-피어슨 의사결정 이론 |
---|---|---|
1 | 통계적 귀무 가설을 설정한다. 귀무 가설은 무 가설(예: 0 차이)일 필요는 없다. | 두 개의 통계적 가설(H1 및 H2)을 설정하고, 주관적인 비용-편익 고려 사항을 기반으로 실험 전에 α, β 및 표본 크기에 대해 결정한다. 이것들은 각 가설에 대한 기각 영역을 정의한다. |
2 | 정확한 유의 수준을 보고한다(예: p = 0.051 또는 p = 0.049). 가설을 "수용"하거나 "기각"하는 것에 대해 언급하지 않는다. 결과가 "유의하지 않은" 경우, 어떠한 결론도 내리지 말고 결정을 내리지 말고, 추가 데이터를 사용할 수 있을 때까지 판단을 보류한다. | 데이터가 H1의 기각 영역에 속하면 H2를 수용한다. 그렇지 않으면 H1을 수용한다. 가설을 수용하는 것은 그 가설을 믿는다는 의미가 아니라, 가설이 사실인 것처럼 행동한다는 의미이다. |
3 | 이 절차는 현재 문제에 대해 알려진 바가 거의 없을 경우, 그리고 실험 상황을 이해하려는 시도의 맥락에서 잠정적인 결론을 도출하기 위해서만 사용한다. | 이 절차의 유용성은 다른 상황 중에서 가설의 분리(예: μ1 = 8 또는 μ2 = 10이 사실임)가 있고 알파와 베타를 선택하기 위해 의미 있는 비용-편익 거래를 할 수 있는 상황으로 제한된다. |
3. 1. 역사
가설 검정은 20세기 초에 대중화되었지만, 초기 형태는 1700년대에 사용되었다. 최초의 사용은 존 아버스노트(1710년)[3]로 여겨지며, 그 뒤를 이어 피에르시몽 라플라스(1770년대)가 출생 시 인간 성비를 분석하는 데 사용했다.'''1778년:''' 피에르시몽 라플라스는 여러 유럽 도시에서 남자아이와 여자아이의 출생률을 비교했다. 그는 "이러한 가능성은 거의 같은 비율이라고 결론 내리는 것이 자연스럽다"라고 말했다. 따라서 이 경우 귀무 가설은 "일반적인 통념"을 고려할 때 남자아이와 여자아이의 출생률이 같아야 한다는 것이다.[48]
'''1900년:''' 칼 피어슨은 "주어진 형태의 빈도 곡선이 주어진 모집단에서 추출된 표본을 효과적으로 설명하는지"를 결정하기 위해 카이 제곱 검정을 개발했다. 귀무 가설은 모집단이 이론에 의해 예측된 어떤 분포에 의해 설명된다는 것이다. 그는 예시로 월터 프랭크 라파엘 웰던의 주사위 던지기 데이터에서 5와 6의 숫자를 사용했다.[5]
'''1904년:''' 칼 피어슨은 결과가 주어진 범주형 요인과 통계적 독립인지 여부를 결정하기 위해 "분할표"의 개념을 개발했다. 여기서 귀무 가설은 기본적으로 두 가지가 관련이 없다는 것이다(예: 흉터 형성 및 천연두 사망률).[6]
현대적 유의성 검정은 칼 피어슨 (''p''-값, 피어슨의 카이 제곱 검정), 윌리엄 실리 고셋 (스튜던트 t-분포), 로널드 피셔 ("귀무 가설", 분산 분석, "유의성 검정")의 산물이며, 가설 검정은 제르지 네이먼과 에곤 피어슨 (칼의 아들)에 의해 개발되었다.
피셔는 가우스 분포를 가정하여 소수의 표본에서 결과를 도출하기 위한 엄격한 실험 설계와 방법을 강조했다. 네이먼(젊은 피어슨과 팀을 이룸)은 수학적 엄격성과 많은 표본 및 더 광범위한 분포에서 더 많은 결과를 얻기 위한 방법을 강조했다. 현대 가설 검정은 20세기 초에 개발된 피셔 대 네이먼/피어슨 공식, 방법 및 용어의 일관성이 없는 혼합체이다.
피셔는 "유의성 검정"을 대중화했다. 그는 귀무 가설(모집단 빈도 분포에 해당)과 표본을 요구했다. 그의 (이제 익숙한) 계산은 귀무 가설을 기각할지 여부를 결정했다. 유의성 검정은 대립 가설을 사용하지 않았으므로 제2종 오류 (음성 오류)의 개념이 없었다.
''p''-값은 연구자가 (다른 지식을 기반으로) 미래의 실험을 수정할지 또는 귀무 가설에 대한 믿음을 강화할지 결정하는 데 도움이 되도록 의도된 비공식적이지만 객관적인 지표로 고안되었다.[9] 가설 검정 (및 제1종/제2종 오류)은 연구자의 어떠한 귀납적 추론도 요구하지 않으면서 연구자의 행동을 결정하기 위한, 피셔의 ''p''-값에 대한 보다 객관적인 대안으로 네이먼과 피어슨에 의해 고안되었다.[10][11]
네이먼과 피어슨은 피셔와는 다른 문제("가설 검정"이라고 불렀다)를 고려했다. 그들은 처음에 두 개의 단순 가설 (둘 다 빈도 분포 포함)을 고려했다. 그들은 두 개의 확률을 계산했고 일반적으로 더 높은 확률과 관련된 가설 (표본을 생성했을 가능성이 더 높은 가설)을 선택했다. 그들의 방법은 항상 가설을 선택했다. 또한 두 유형의 오류 확률을 계산할 수 있었다.
피셔와 네이먼/피어슨은 격렬하게 충돌했다. 네이먼/피어슨은 그들의 공식을 유의성 검정의 개선된 일반화로 간주했다.[10] 피셔는 종종 실험 과정에서 귀무 가설에 대한 초기 가정이 예기치 않은 오류 원인으로 인해 의심스러워진다는 것을 발견하기 때문에, 그것이 과학 연구에 적용될 수 없다고 생각했다.
피셔와 네이먼-피어슨 사이의 논쟁은 철학적 근거에서 벌어졌으며, 한 철학자는 통계적 추론에서 모델의 적절한 역할에 대한 논쟁으로 특징지었다.[13]
사건이 개입했다. 네이먼은 1938년 캘리포니아 대학교 버클리의 직위를 수락하여 피어슨과의 파트너십을 깨고 논쟁자들을 분리했다(같은 건물을 사용했었다). 제2차 세계 대전은 논쟁의 휴지기를 제공했다. 피셔와 네이먼 사이의 논쟁은 1962년 피셔의 사망으로 (27년 후 해결되지 않은 채) 종료되었다. 네이먼은 존경받는 추도사를 썼다.[14] 네이먼의 후기 출판물 중 일부는 ''p''-값과 유의 수준을 보고했다.[15]
현대 가설 검정의 버전은 1940년대부터 시작된 통계 교과서 저술가들의 혼란(피셔가 예측했듯이)의 결과로 나타난 두 접근 방식의 혼합체이다.[16] (하지만, 예를 들어 신호 탐지는 여전히 네이먼/피어슨 공식을 사용한다).
1940년경[16], 통계 교과서 저자들은 네이먼-피어슨 "유의 수준"에 대해 검정하기 위해 검정 통계량 (또는 데이터) 대신 ''p''-값을 사용하여 두 접근 방식을 결합하기 시작했다.
# | 피셔의 귀무 가설 검정 | 네이먼-피어슨 의사결정 이론 |
---|---|---|
1 | 통계적 귀무 가설을 설정한다. 귀무 가설은 무 가설(예: 0 차이)일 필요는 없다. | 두 개의 통계적 가설, H1 및 H2를 설정하고, 주관적인 비용-편익 고려 사항을 기반으로 실험 전에 α, β 및 표본 크기에 대해 결정한다. 이것들은 각 가설에 대한 기각 영역을 정의한다. |
2 | 정확한 유의 수준을 보고한다(예: p = 0.051 또는 p = 0.049). 가설을 "수용"하거나 "기각"하는 것에 대해 언급하지 않는다. 결과가 "유의하지 않은" 경우, 어떠한 결론도 내리지 말고 결정을 내리지 말고, 추가 데이터를 사용할 수 있을 때까지 판단을 보류한다. | 데이터가 H1의 기각 영역에 속하면 H2를 수용한다. 그렇지 않으면 H1을 수용한다. 가설을 수용하는 것은 그 가설을 믿는다는 의미가 아니라, 가설이 사실인 것처럼 행동한다는 의미이다. |
3 | 이 절차는 현재 문제에 대해 알려진 바가 거의 없을 경우, 그리고 실험 상황을 이해하려는 시도의 맥락에서 잠정적인 결론을 도출하기 위해서만 사용한다. | 이 절차의 유용성은 다른 상황 중에서 가설의 분리(예: μ1 = 8 또는 μ2 = 10이 사실임)가 있고 알파와 베타를 선택하기 위해 의미 있는 비용-편익 거래를 할 수 있는 상황으로 제한된다. |
가설 검정의 두 가지 형태는 서로 다른 문제 공식에 기반한다. 원래 검정은 참/거짓 질문과 유사하다. 네이만-피어슨 검정은 객관식과 더 유사하다. 터키[68]의 관점에서 전자는 강한 증거만을 기반으로 결론을 내리는 반면, 후자는 사용 가능한 증거를 기반으로 결정을 내린다.
피셔의 유의성 검정은 수학적 성장 가능성이 거의 없는 응용 분야에서 인기 있고 유연한 통계 도구임이 입증되었다. 네이만-피어슨 가설 검정은 수학 통계의 기둥으로 주장되며,[58] 이 분야에 대한 새로운 패러다임을 창출했다.
3. 2. 철학적 논쟁
폴 밀은 귀무 가설 선택의 인식론적 중요성이 제대로 인식되지 않았다고 주장했다. 귀무 가설이 이론에 의해 예측되는 경우, 더 정밀한 실험은 근본적인 이론에 대한 더 엄격한 검증이 될 것이다. 반면 귀무 가설이 "차이 없음" 또는 "영향 없음"으로 기본 설정되는 경우, 더 정밀한 실험은 실험 수행을 동기 부여한 이론에 대한 덜 엄격한 검증이 된다.[4]가설 검정과 철학은 교차점을 갖는다. 가설 검정을 포함하는 추론 통계학은 적용 확률이며, 확률과 그 적용 모두 철학과 밀접하게 관련되어 있다. 철학자 데이비드 흄은 "모든 지식은 확률로 퇴화한다"라고 썼다. 확률에 대한 상반된 실용적 정의는 철학적 차이를 반영한다. 가설 검정의 가장 일반적인 적용은 실험 데이터의 과학적 해석에 있으며, 이는 과학 철학에서 연구된다.
피셔와 네이먼은 확률의 주관성에 반대했다. 그들의 견해는 객관적 정의에 기여했으며, 그들의 역사적 불일치는 철학적인 부분에서 기인했다.
가설 검정에 대한 많은 철학적 비판은 통계학자들이 다른 맥락, 특히 상관관계는 인과관계를 의미하지 않는다와 실험 설계에서 논의한다. 가설 검정은 철학자들에게 지속적인 관심사이다.
네이만-피어슨 가설 검정(또는 귀무 가설 통계적 유의성 검정)은 방사능 수트케이스 예시를 통해 설명할 수 있다. 만약 "수트케이스"가 실제로 방사성 물질 운반을 위한 차폐 용기라면, 세 가지 가설(방사성 물질 없음, 하나 있음, 두 개(모두) 있음) 중에서 선택하는 검정이 필요하다. 각 경우에 필요한 조치가 포함된 안전을 위해 검사가 필요할 수 있다. 네이만-피어슨 보조정리는 가설 선택을 위한 좋은 기준은 확률의 비율(우도비)이라고 말한다. 관찰된 가이거 계수에 대해 가장 높은 확률을 가진 가설을 선택하는 것이 간단한 해결 방법이다. 전형적인 결과는 직관과 일치한다. 즉, 적은 계수는 소스가 없음을, 많은 계수는 두 개의 소스를, 중간 계수는 하나의 소스를 의미한다. 또한 부정을 증명하는 데 문제가 있으며, 귀무 가설은 최소한 반증 가능해야 한다.
네이만-피어슨 이론은 사전 확률과 결정으로 인한 행동의 비용을 모두 수용할 수 있다.[57] 전자는 각 검사가 이전 검사 결과를 고려할 수 있도록 하고(피셔의 유의성 검정과 달리), 후자는 확률뿐만 아니라 경제적 문제 등을 고려할 수 있도록 한다. 우도비는 가설 중에서 선택하기 위한 좋은 기준이 된다.
가설 검정의 두 가지 형태는 서로 다른 문제 공식에 기반한다. 원래 검정은 참/거짓 질문과 유사하며, 네이만-피어슨 검정은 객관식과 더 유사하다. 터키[68]는 전자는 강한 증거만을 기반으로 결론을 내는 반면, 후자는 사용 가능한 증거를 기반으로 결정을 내린다고 하였다. 두 검정은 수학적 및 철학적으로 매우 다르게 보이지만, 이후의 발전은 정반대의 주장을 낳는다. 예를 들어, 많은 작은 방사성 소스를 고려할 때, 가설은 0, 1, 2, 3... 입자의 방사성 모래가 된다. 방사선이 없거나 약간 있는 것(피셔)과 방사성 모래 0개 대 모든 대안(네이만-피어슨) 사이에는 거의 구별이 없다. 1933년의 주요 네이만-피어슨 논문[10]은 복합 가설(분포가 알 수 없는 매개변수를 포함하는 가설)도 고려했으며, (스튜던트의) ''t''-검정의 최적성을 증명했다. "고려중인 가설에 대한 더 나은 검정은 있을 수 없다"(321쪽). 네이만-피어슨 이론은 시작부터 피셔식 방법의 최적성을 증명하고 있었다.
피셔의 유의성 검정은 수학적 성장 가능성이 거의 없는 응용 분야에서 인기 있고 유연한 통계 도구임이 입증되었다. 네이만-피어슨 가설 검정은 수학 통계의 기둥으로 주장되며,[58] 이 분야에 대한 새로운 패러다임을 창출했다. 또한 통계적 공정 관리, 탐지 이론, 의사 결정 이론 및 게임 이론에서 새로운 응용 분야를 자극했다. 두 공식 모두 성공했지만, 그 성공은 다른 성격을 띠고 있다.
두 공식에 대한 분쟁은 해결되지 않았다. 과학은 주로 소개 통계에서 가르치는 피셔의 (약간 수정된) 공식을 사용한다. 통계학자들은 대학원에서 네이만-피어슨 이론을 공부한다. 수학자들은 공식을 통합한 것에 자부심을 느낀다. 철학자들은 그것들을 별도로 고려한다. 학식 있는 의견들은 그 공식들을 경쟁적(피셔 대 네이만), 양립할 수 없음[8] 또는 보완적[59]으로 다양하게 간주한다. 베이즈주의 추론이 존경을 받으면서 분쟁은 더욱 복잡해졌다.
용어는 일관성이 없다. 가설 검정은 시간이 지남에 따라 모두 변경된 두 가지 공식의 혼합을 의미할 수 있다. 유의성 검정 대 가설 검정에 대한 모든 논의는 혼란에 이중으로 취약하다.
피셔는 가설 검정이 산업 품질 관리를 수행하는 유용한 전략이라고 생각했지만, 과학자들에게 가설 검정이 유용할 수 있다는 점에는 강하게 동의하지 않았다.[9] 가설 검정은 유의성 검정에 사용되는 검정 통계를 찾는 수단을 제공한다.[59] 검정력의 개념은 유의 수준을 조정하는 결과를 설명하는 데 유용하며 표본 크기 결정에 널리 사용된다. 두 방법은 철학적으로 여전히 구별된다.[13] 그들은 일반적으로 (그러나 ''항상''은 아님) 동일한 수학적 답을 생성하며, 선호되는 답은 상황에 따라 다르다.[59] 피셔와 네이만-피어슨 이론의 기존 병합은 격렬한 비판을 받았지만, 베이지안 목표를 달성하기 위해 병합을 수정하는 것이 고려되었다.[60]
4. 가설 검정의 종류
통계적 가설 검정은 통계학과 통계적 추론에서 중요한 역할을 한다.[33] 리만(Lehmann, 1992)은 네이만과 피어슨(Neyman and Pearson, 1933)의 논문을 검토하며 "1933년 논문에서 공식화된 새로운 패러다임과 그 틀 내에서 수행된 많은 발전은 통계학의 이론과 실제 모두에서 계속해서 중심적인 역할을 하고 있으며, 가까운 미래에도 그럴 것으로 예상된다"고 언급했다.
가설 검정은 다음과 같은 다양한 실제 사례에 적용된다.[33]
- 남성이 여성보다 악몽을 더 많이 겪는지 여부 검사
- 문서의 저자 식별
- 보름달이 행동에 미치는 영향 평가
- 박쥐가 반향을 통해 곤충을 감지할 수 있는 범위 결정
- 병원 카펫이 더 많은 감염을 유발하는지 여부 결정
- 금연을 위한 최선의 방법 선택
- 범퍼 스티커가 자동차 소유자의 행동을 반영하는지 확인
- 필적 분석가의 주장에 대한 검증
유의성 검정은 일부 실험적 사회 과학에서 선호되는 통계적 도구였으나(1990년대 초 ''응용 심리학 저널'' 기사의 90% 이상),[34] 다른 분야에서는 효과 크기와 같은 매개변수 추정을 선호했다. 유의성 검정은 과학적 방법의 핵심인 예측 값과 실험 결과의 전통적인 비교를 대체하는 데 사용된다. 이론이 관계의 부호만 예측할 수 있는 경우, 방향성 (단측) 가설 검정을 통해 통계적으로 유의미한 결과만 이론을 뒷받침하도록 할 수 있다.
가설 검정은 확률 및 제1종 오류율과 관련이 있으며, 검정 결론은 표본만큼만 견고하다. 따라서 실험 설계가 매우 중요하며, 다음과 같은 예상치 못한 효과가 관찰될 수 있다.
- 클레버 한스 효과: 말이 간단한 산수를 할 수 있는 것처럼 보임.
- 호손 효과: 산업 노동자는 조명 상태에 따라 생산성이 달라짐.
- 플라시보 효과: 의학적으로 활성 성분이 없는 알약이 효과를 보임.
잘못된 데이터 분석은 잘못된 결론을 낳고, 데이터 품질 문제는 미묘할 수 있다. 예를 들어 예측 정확도 측정에 대한 합의가 없어 논란이 있을 수 있다.
또한, 출판 편향(유의하지 않은 결과는 출판 가능성이 낮음)과 다중 검정(제1종 오류 확률 증가)에 유의해야 한다.[36] 가설 검정 결과에 따른 중요한 결정은 결론뿐 아니라 세부 사항도 신중히 검토해야 한다. "숫자는 거짓말을 하지 않지만, 거짓말쟁이는 숫자를 만들어낸다"는 조언을 새겨야 한다.
투시 능력 검사 예시어떤 사람이 투시 능력이 있는지 검사하기 위해, 무작위로 선택된 카드 뒷면을 25번 보여주고 어떤 슈트인지 묻는다. 맞춘 횟수를 ''X''라 한다.
- 귀무 가설: 투시 능력이 없다. ()
- 대립 가설: 투시 능력이 있다. ()
여기서 ''p''는 카드를 올바르게 예측할 확률이다. 귀무 가설 하에서는 ''p'' = 1/4 (단순 추측)이고, 대립 가설 하에서는 ''p'' > 1/4 이다.
25번 모두 맞추면 귀무 가설을 기각하고 투시 능력이 있다고 간주한다. 하지만 몇 개를 맞춰야 투시 능력이 있다고 할 수 있을까? 이 기준점을 임계값 ''c''라고 한다.
''c''를 결정하는 것은 제1종 오류(귀무 가설이 참인데 기각하는 오류, 거짓 양성)를 얼마나 허용할지에 달려있다. ''c'' = 25는 매우 엄격하고, ''c'' = 10은 덜 엄격하다.
실제 검사 전, 제1종 오류의 최대 허용 확률(''α'')을 결정한다. (보통 1%~5%). 이 ''α'' 값에 따라 ''c''를 계산하고, 제2종 오류(거짓 음성) 확률을 최소화하는 가장 작은 ''c''를 선택한다. 예를 들어, ''α'' = 1% 이면, 을 선택한다.
4. 1. 모수적 검정
빈도주의 가설 검정을 실제로 수행하는 데 관련된 일반적인 단계는 다음과 같다.1. 가설(데이터를 사용하여 검증할 수 있는 주장)을 정의한다.
2. 관련 검정 통계량 T를 사용하여 적절한 통계적 검정을 선택한다.
3. 가정으로부터 귀무 가설 하에서 검정 통계량의 분포를 도출한다. 표준적인 경우 이는 잘 알려진 결과가 된다. 예를 들어, 검정 통계량은 알려진 자유도를 가진 스튜던트 t-분포를 따르거나 알려진 평균과 분산을 가진 정규 분포를 따를 수 있다.
4. 유의 수준(''α'')을 선택한다. 이는 허용 가능한 최대 거짓 양성률이다. 일반적인 값은 5%와 1%이다.
5. 관찰로부터 검정 통계량 T의 관찰된 값 tobs를 계산한다.
6. 귀무 가설을 대립 가설을 지지하여 기각하거나 기각하지 않기로 결정한다. 네이만-피어슨 결정 규칙은 관찰된 값 tobs가 임계 영역에 있는 경우 귀무 가설 H0를 기각하고, 그렇지 않으면 귀무 가설을 기각하지 않는 것이다.[28]
모집단의 분포로서 정규 분포를, 또는 비교하는 두 집단 간의 등분산(표준 편차가 동일)을 가정하는 (모수 = 파라미터를 가정하는) 검정 방법을 모수적(Parametric) 검정이라고 부른다. 구체적인 방법의 예시는 다음과 같다.
4. 2. 비모수적 검정
비모수적 검정은 모집단의 분포로 정규 분포를 가정하거나, 비교하는 두 집단 간의 등분산(표준 편차가 동일)을 가정하는 모수적 검정과 달리, 이러한 가정을 하지 않고 일반적인 분포에 적용할 수 있는 검정 방법이다.비모수적 검정 방법에는 다음과 같은 예시들이 있다.
- 부호 검정
- 윌콕슨 부호 순위 검정
- 만-휘트니 U 검정
- 카이제곱 검정
- 피셔의 정확 검정
검정의 목적에 따라 다음과 같이 나눌 수 있다.
- 모수의 유의성 검정
- 적합도 검정 (특정 모집단에서 추출된 것인지)
- 균일성 검정 (2개의 표본이 동일한 모집단에 의한 것인지)
- 독립성 검정 (2개의 표본이 독립인지)
5. 검정력
일본 산업 규격에서는 '''검정력'''(statistical power|스태티스티컬 파워영어)을 "귀무 가설이 옳지 않을 때, 귀무 가설을 기각할 확률, 즉 제2종 오류를 범하지 않을 확률"로 정의하며, 일반적으로 1 - β로 표시한다.[1] 검정력 함수는 "가설이 어떤 매개변수로 표현될 때, 매개변수 값에 따라 검출력을 제공하는 함수"로 정의된다.[2] 더 높은 검정력을 더 작은 표본 크기로 실현하는 것이 바람직하다.
5. 1. 제1종 오류와 제2종 오류
Type I error영어와 Type II error영어는 통계적 가설 검정에서 발생할 수 있는 두 가지 유형의 오류이다.제1종 오류 (α)는 귀무 가설이 실제로 참인데도 불구하고 이를 기각하는 오류를 말한다. 예를 들어, "남성이 여성보다 악몽을 더 많이 겪는지"를 검사할 때 귀무 가설은 "남성과 여성 간 악몽 빈도에 차이가 없다"가 될 것이다. 만약 검정 결과 남성이 여성보다 악몽을 더 많이 꾼다고 결론 내렸지만, 실제로는 차이가 없다면 제1종 오류를 범한 것이다. 제1종 오류는 거짓 양성(false positive)이라고도 하며, 발생 확률은 α(알파)로 표시하고, 유의 수준과 같다. 보통 0.05(5%) 또는 0.01(1%)로 설정되며, 이는 귀무 가설이 참일 때 기각할 확률의 상한값을 의미한다.
제2종 오류 (β)는 귀무 가설이 실제로 거짓인데도 불구하고 이를 기각하지 않는 오류를 말한다. 위의 예시에서, 실제로는 남성이 여성보다 악몽을 더 많이 꾸는데도 불구하고 검정 결과 차이가 없다고 결론 내린다면 제2종 오류를 범한 것이다. 제2종 오류는 거짓 음성(false negative)이라고도 하며, 발생 확률은 β(베타)로 표시한다. 1 - β는 검정력 또는 검출력(power)이라고 부르며, 잘못된 귀무가설을 올바르게 기각할 수 있는 확률을 나타낸다.
일본 산업 규격에서는 '''검출력'''()을 "귀무가설이 옳지 않을 때, 귀무가설을 기각할 확률. 즉, 제2종 오류를 범하지 않을 확률이며, 일반적으로 1 − β로 표시된다."라고 정의하고 있다.
일반적으로 제1종 오류와 제2종 오류는 동시에 줄일 수 없다. 제1종 오류를 줄이려고 하면 제2종 오류가 증가하는 경향이 있으며, 반대의 경우도 마찬가지이다. 따라서 가설 검정에서는 미리 정해진 유의 수준 α에 대해 제2종 오류 β를 최소화(검출력을 최대화)하는 방식으로 기각역을 설정한다.
5. 2. 검정력 함수
일본 산업 규격에서는 '''검출력'''(statistical power|스태티스티컬 파워영어)을 "귀무가설이 옳지 않을 때, 귀무가설을 기각할 확률. 즉, 제2종 오류를 범하지 않을 확률"로 정의하며, 일반적으로 1 - β로 표시한다.[1]더 높은 검출력을 더 작은 표본 크기로 실현하는 것이 바람직하다.
일본 산업 규격에서는 검출력 함수를 "가설이 어떤 매개변수로 표현될 때, 매개변수 값에 따라 검출력을 제공하는 함수"로 정의하고 있다.[2]
6. 순차적 가설 검정
통계적 가설 검정의 초기 사용 사례는 1700년대 존 아버스노트와 피에르시몽 라플라스가 남성과 여성의 출생 확률이 같은지(귀무 가설)를 연구한 것이다.[43][44]
아버스노트는 1629년부터 1710년까지 82년간 런던의 출생 기록을 부호 검정이라는 비모수 검정으로 분석했다.[45][46][47] 매년 런던에서 태어난 남아가 여아보다 많았다. 남아와 여아의 출생 확률이 같다고 가정하면, 관측 결과가 나올 확률은 0.582(약 1/4,836,000,000,000,000,000,000,000)이었다. 현대 용어로는 이것이 ''p''-값이다. 아버스노트는 이 확률이 우연이라기엔 너무 작으므로 신의 섭리라고 결론지었다. 현대 용어로 그는 ''p'' = 1/282 유의 수준에서 남녀 출생 확률이 같다는 귀무 가설을 기각했다.
라플라스는 약 50만 건의 출생 통계를 분석하여 여아보다 남아가 더 많음을 확인했다.[48][49] 그는 ''p''-값을 계산하여 이 현상이 실제하지만 설명되지 않은 효과라고 결론지었다.[50]
순차적 가설 검정(sequential hypothesis testing|순차적 가설 검정영어)은 순차적으로 가설 검정을 하는 방식이다. 표본 크기가 고정되지 않고, 중단 규칙을 두어 규칙이 충족될 때까지 검정을 미루고 표본을 추가한다. 중단 규칙이 충족되면 결정 규칙(가설 검정)을 실행한다. 순차적 확률비 검정(순차적 우도비 검정)도 참고할 수 있다.
더 작은 표본으로 더 높은 검출력을 얻는 것이 좋으며, 통계적으로 최적의 중단 및 결정 규칙을 최적 중단 규칙 및 최적 결정 규칙이라고 한다.
온라인 가설 검정으로 사용할 수 있으며, 이 경우 표본 크기는 지연 시간으로 간주된다.
7. 비판 및 대안
가설 검정은 통계학 내에서 성숙한 분야로 간주되지만,[88] 제한적인 개발은 계속되고 있다. 통계적 가설 검정은 빈도주의 통계적 추론과 베이즈 추론 모두의 핵심 기법이지만, 두 유형의 추론에는 주목할 만한 차이점이 있다.
통계적 가설 검정은 기본 입장(귀무 가설)이 틀렸다고 잘못 "결정"할 확률을 제어(고정)하는 절차를 정의한다. 이 절차는 귀무 가설이 참일 경우 일련의 관측치가 발생할 가능성에 기반한다. 잘못된 결정을 내릴 이러한 확률은 귀무 가설이 참일 확률도 아니고, 어떤 특정 대립 가설이 참일 확률도 아니다. 이는 귀무 가설과 대립 가설을 보다 동등한 기반으로 취급하는 다른 가능한 의사 결정 이론 기법과는 대조적이다.
가설 검정에 대한 한 가지 순진한 베이즈 통계학적 접근 방식은 사후 확률에 따라 결정을 내리는 것이지만,[55][56] 이는 점 가설과 연속 가설을 비교할 때 실패한다. 베이즈 의사 결정 이론과 같은 의사 결정에 대한 다른 접근 방식은 단일 귀무 가설에 집중하기보다는 모든 가능성에 걸쳐 잘못된 결정의 결과를 균형 있게 조정하려고 시도한다. 데이터에 기반한 의사 결정에 도달하는 다른 여러 접근 방식은 의사 결정 이론과 최적 결정을 통해 사용할 수 있으며, 그중 일부는 바람직한 속성을 가지고 있다. 그러나 가설 검정은 많은 과학 분야에서 데이터 분석에 대한 지배적인 접근 방식이다. 가설 검정 이론의 확장에는 검정의 검정력(귀무 가설이 거짓일 때 귀무 가설을 올바르게 기각할 확률)에 대한 연구가 포함된다. 이러한 고려 사항은 데이터를 수집하기 전에 표본 크기 결정을 목적으로 사용할 수 있다.
추정 통계는 수용-거부 결론이 아닌, 구간 추정과 함께 추정된 값으로 이어져야 한다는 철학을 바탕으로 한다. 추정 통계는 빈도론적 또는 베이즈 방법을 사용하여 수행할 수 있다.[85][86]
베이즈 추론은 유의성 검증의 대안으로 제안되었다.[77] 예를 들어, 베이즈 모수 추정은 연구자가 추론을 도출할 수 있는 풍부한 정보를 제공할 수 있으며, 충분한 데이터를 사용할 수 있을 때 결과에 최소한의 영향만 미치는 불확실한 사전 확률을 사용한다. 심리학자 존 K. 크루슈케는 ''t''-검정의 대안으로 베이즈 추정을 제안했으며[85], 귀무 가설 값을 평가하기 위한 베이즈 추정을 가설 검증을 위한 베이즈 모델 비교와 대조하기도 했다.[86] 두 개의 경쟁 모델/가설은 베이즈 인자를 사용하여 비교할 수 있다.[89] 베이즈 방법은 유의성 검정이 가장 많이 사용되는 경우에 거의 사용할 수 없는 정보를 요구한다는 비판을 받을 수 있다.[77]
7. 1. 비판
가설 검정은 통계학에서 중요한 부분을 차지하지만, 여러 비판을 받고 있다. 특히 통계 교육에서 가설 검정이 '요리책'처럼 정형화된 방식으로 가르쳐지면서, 그 역사, 철학, 논쟁에 대한 이해가 부족하다는 지적이 있다.[23] 이러한 교육 방식은 학생들뿐만 아니라 강사들에게도 통계적 추론에 대한 오해를 불러일으킨다.[23]통계적 가설 검정의 비판은 다음과 같이 요약될 수 있다.
- p-값 해석의 문제: p-값은 중단 규칙과 다중 비교의 정의에 따라 달라지는데, 이는 연구 과정에서 자주 변경되거나 모호하게 정의될 수 있다.[67]
- 혼란스러운 방법론 결합: 개념적으로 다른 피셔와 네이만-피어슨의 방법을 결합하여 혼란이 발생한다.[68]
- 통계적 유의성에 대한 과도한 의존: 통계적 유의성만을 강조하고 추정 및 반복 실험을 통한 확인을 소홀히 한다.[69]
- 게재 편향: 통계적 유의성을 엄격하게 요구하는 출판 관행은 게재 편향을 유발한다.[70]
- 실험 설계 개선과 역설: 실험 설계가 개선될수록 검정은 더 관대해져, 통계적 유의성을 찾을 확률이 높아지는 역설이 발생한다.[71]
- 철학적 문제: 통계적 유의성의 확률은 실험자/분석가의 결정에 따라 달라지며, 이는 주관적이거나 임의적일 수 있다.[72]
- 귀무 가설 기각의 한계: 귀무 가설을 기각하는 것이 연구 가설을 직접적으로 지지하는 것은 아니다.[75]
이러한 비판에도 불구하고, 가설 검정은 여전히 중요한 정보를 제공하는 도구로 인식되고 있다. 다만, "통계 분석의 유일한 도구로는 부적절하다"는 의견이 지배적이다.[65][77][78]
이러한 논란은 통계 보고 요건 강화, 통계적으로 유의하지 않은 결과 출판, 효과 크기 및 신뢰 구간 사용 권장 등 다양한 변화를 가져왔다.[80][81][84]
7. 2. 대안
머리엘 브리스톨은 차와 우유 중 어느 것을 먼저 넣었는지 구별할 수 있다고 주장했는데, 이에 로널드 피셔는 그녀에게 8잔의 차를 제공하여 실험을 제안했다. 각 종류별로 4잔씩 무작위 순서로 제공되었고, 브리스톨이 맞춘 갯수의 확률이 우연에 의한 것인지 확인하는 방식으로 진행되었다. 여기서 귀무 가설은 브리스톨에게 그러한 능력이 없다는 것이었다. 검정 통계량은 4잔을 선택하는 데 있어서 성공 횟수의 단순한 개수였고, 임계 영역은 4개의 가능한 컵 중 4개를 모두 맞춘 단일 경우였다. 이는 통상적인 확률 기준(< 5%)을 따랐으며, 4개의 성공 패턴은 70가지 가능한 조합 중 1가지에 해당하여 (p≈ 1.4%)였다. 피셔는 대립 가설이 필요하지 않다고 주장했고, 브리스톨은 모든 컵을 정확하게 식별하여,[52] 이는 통계적으로 유의미한 결과로 간주되었다.참조
[1]
서적
100 Statistical Tests in R: What to Choose, how to Easily Calculate, with Over 300 Illustrations and Examples
https://books.google[...]
Heather Hills Press
2013
[2]
서적
100 Statistical Tests
https://books.google[...]
SAGE
2006-07-18
[3]
서적
in Statisticians of the Centuries by C.C. Heyde and E. Seneta
Springer
[4]
논문
Appraising and Amending Theories: The Strategy of Lakatosian Defense and Two Principles That Warrant It
http://rhowell.ba.tt[...]
[5]
논문
On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling
http://www.economics[...]
[6]
논문
On the Theory of Contingency and Its Relation to Association and Normal Correlation
https://archive.org/[...]
[7]
논문
R. A. Fisher on the History of Inverse Probability
[8]
웹인용
P Values are not Error Probabilities
http://ftp.isds.duke[...]
September 4, 2013
[9]
논문
Statistical Methods and Scientific Induction
http://www.phil.vt.e[...]
[10]
논문
On the Problem of the most Efficient Tests of Statistical Hypotheses
1933-01-01
[11]
논문
Toward evidence-based medical statistics. 1: The P Value Fallacy
1999-06-15
[12]
논문
The Nature of Probability
http://www.york.ac.u[...]
[13]
논문
Models and Statistical Inference: The Controversy between Fisher and Neyman–Pearson
[14]
논문
RA Fisher (1890—1962): An Appreciation.
[15]
논문
Hypothetical explanations of the negative apparent effects of cloud seeding in the Whitetop Experiment.
[16]
논문
Inductive Inference or Inductive Behavior: Fisher and Neyman: Pearson Approaches to Statistical Testing in Psychological Research (1940–1960)
2006-Winter
[17]
서적
The Empire of Chance: How Probability Changed Science and Everyday Life
Cambridge University Press
[18]
논문
Severe Testing as a Basic Concept in a Neyman–Pearson Philosophy of Induction
[19]
웹사이트
Mathematics > High School: Statistics & Probability > Introduction
http://www.corestand[...]
Common Core State Standards Initiative (relates to USA students)
July 28, 2012
[20]
웹사이트
College Board Tests > AP: Subjects > Statistics
http://www.collegebo[...]
The College Board (relates to USA students)
[21]
서적
How to lie with statistics
https://archive.org/[...]
Norton
[22]
서적
Statistical Methods
Iowa State University Press
[23]
논문
Students' Misconceptions of Statistical Inference: A Review of the Empirical Evidence from Research on Statistics Education
https://lirias.kuleu[...]
[24]
논문
New Pedagogy and New Content: The Case of Statistics
http://www.stat.auck[...]
[25]
논문
Why We Don't Really Know What Statistical Significance Means: Implications for Educators
[26]
논문
How Confident Are Students in Their Misconceptions about Hypothesis Tests?
[27]
서적
The SAGE Handbook of Quantitative Methodology for the Social Sciences
[28]
논문
Testing Statistical Hypotheses
https://link.springe[...]
2005
[29]
서적
Design and Analysis of Experiments
Wiley
[30]
서적
Design and analysis of experiments
Wiley
[31]
간행물
Statistical Methods for Research Workers
Edinburgh: Oliver and Boyd
1925
[32]
논문
Scientific method: Statistical errors
2014
[33]
서적
Statistics in the Real World: a book of examples
Macmillan
[34]
논문
The Spread of Statistical Significance Testing in Psychology: The Case of the Journal of Applied Psychology
[35]
서적
Introduction to the Practice of Statistics
W.H. Freeman and Co
[36]
논문
Common pitfalls in statistical analysis: The perils of multiple testing
2016-04
[37]
서적
Testing Statistical Hypotheses
Springer
[38]
서적
Statistics: A Foundation for Analysis
https://archive.org/[...]
Addison-Wesley
[39]
간행물
Two guidelines for bootstrap hypothesis testing
[40]
간행물
An introduction to the bootstrap
[41]
간행물
Bootstrap hypothesis testing for some common statistical problems: A critical evaluation of size and power properties
[42]
간행물
Bootstrap methods in econometrics
[43]
논문
An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes
http://www.york.ac.u[...]
[44]
서적
The Descent of Human Sex Ratio at Birth
https://archive.org/[...]
Springer Science & Business Media
[45]
Citation
Practical Nonparametric Statistics
Wiley
[46]
Citation
Applied Nonparametric Statistical Methods
Chapman & Hall
[47]
서적
The History of Statistics: The Measurement of Uncertainty Before 1900
Harvard University Press
[48]
논문
Mémoire sur les probabilités
http://cerebro.xu.ed[...]
2013-09-05
[49]
서적
Oeuvres complètes de Laplace
[50]
서적
The History of Statistics: The Measurement of Uncertainty before 1900
https://archive.org/[...]
Belknap Press of Harvard University Press
[51]
서적
The World of Mathematics, volume 3
Courier Dover Publications
[52]
서적
R.A. Fisher, The Life of a Scientist
Wiley
[53]
논문
Illustrations of the Logic of Science VI: Deduction, Induction, and Hypothesis
http://en.wikisource[...]
2012-03-30
[54]
서적
Probability theory : the logic of science
Cambridge Univ. Press
2007
[55]
문서
Theory of Statistics
Springer
[56]
서적
Reference Manual on Scientific Evidence
West National Academies Press
[57]
서적
Basic probability theory
Wiley
[58]
논문
The History of Statistics in 1933
1996-08
[59]
논문
The Fisher, Neyman–Pearson Theories of Testing Hypotheses: One Theory or Two?
1993-12
[60]
논문
Could Fisher, Jeffreys and Neyman Have Agreed on Testing?
[61]
서적
The Significance Test Controversy
Aldine Transaction
[62]
서적
Statistical Inference: A Commentary for the Social and Behavioural Sciences
Wiley
[63]
서적
Statistical Significance: Rationale, Validity and Utility
SAGE Publications
[64]
서적
What If There Were No Significance Tests?
Lawrence Erlbaum Associates
[65]
서적
Beyond Significance Testing: Reforming Data Analysis Methods in Behavioral Research
American Psychological Association
[66]
서적
The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives
University of Michigan Press
[67]
논문
Recent Methodological Contributions to Clinical Trials
http://www.epidemiol[...]
[68]
논문
Conclusions vs decisions
[69]
논문
The Influence of Statistical Methods for Research Workers on the Development of the Science of Statistics
[70]
논문
Publication bias: a problem in interpreting medical data
[71]
논문
Theory-Testing in Psychology and Physics: A Methodological Paradox
http://mres.gmu.edu/[...]
[72]
논문
The test of significance in psychological research
[73]
논문
Mindless statistics
2004-11
[74]
논문
The place of statistics in psychology
[75]
논문
What's wrong with psychology, anyway?
[76]
논문
The Earth Is Round (p < .05)
1994-12
[77]
논문
Null Hypothesis Significance Tests: A Review of an Old and Continuing Controversy
[78]
논문
Malignant side effects of null hypothesis significance testing
[79]
논문
Needed: A Ban on the Significance Test
1997-01
[80]
논문
Statistical Methods in Psychology Journals; Guidelines and Explanations
[81]
웹사이트
ICMJE: Obligation to Publish Negative Studies
http://www.icmje.org[...]
2012-09-03
[82]
웹사이트
Journal of Articles in Support of the Null Hypothesis
http://www.jasnh.com[...]
[83]
서적
Statistical Methods for Psychology
https://archive.org/[...]
Duxbury
[84]
논문
Moving beyond P values in The Journal of Physiology: A primer on the value of effect sizes and confidence intervals
2023-10-10
[85]
논문
Bayesian Estimation Supersedes the T Test
https://jkkweb.siteh[...]
2012-07-09
[86]
논문
Rejecting or Accepting Parameter Values in Bayesian Estimation
https://jkkweb.siteh[...]
2018-05-08
[87]
논문
Significance tests harm progress in forecasting
http://repository.up[...]
[88]
논문
Testing Statistical Hypotheses: The Story of a Book
[89]
간행물
Bayes factors and model uncertainty
http://www.stat.wash[...]
Department of Statistics, University of Washington
[90]
논문
The fallacy of the null-hypothesis significance test
http://stats.org.uk/[...]
[91]
논문
The Case for Objective Bayesian Analysis
[92]
논문
R. A. Fisher on Bayes and Bayes' theorem
[93]
문서
単に'''検定法'''と呼ばれることもある。
[94]
문서
1920-30年代にかけて[[イェジ・ネイマン]]、[[エゴン・ピアソン]]によって体系化された。
[95]
문서
[[#村尾(2014)|村尾(2014)]]
[96]
문서
棄却(すなわち不採択)できるかを調べるものなので、帰無仮説と呼ぶ。
[97]
url
https://gakkai.univcoop.or.jp/pcc/2014/papers/pdf/pcc057.pdf
https://gakkai.univc[...]
[98]
문서
この場合、両者の反応は[[標準偏差]]がともに等しい[[正規分布]]に従うが、さらに平均にも差が無いかを問題としている。
[99]
서적
이군희, 《사회과학연구방법론》, 법문사, 2001년, p.367
[100]
문서
상계서 p,370
[101]
문서
상계서 p,369
[102]
서적
김석우, 《기초통계학》, 학지사, 2007, p.168-169
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com